神经影像数据相关统计学习方法的综述(3)
作者介绍
张疏影:中国人民大学统计学院本科生
孟祥宇:中南大学数学与统计学院本科生
本系列推文是基于综述文章Zhu, H., Li, T., & Zhao, B. (2022). Statistical learning methods for neuroimaging data analysis with applications, https://arxiv.org/abs/2210.09217. 该文章将在2023年发表在Annual Review of Biomedical Data Science,它详细地介绍了复杂神经影像数据分析的一些问题、挑战、及统计学习方法,其中大部分内容源于对该综述文章的翻译。在此特别感谢原文的第一作者朱宏图教授对本译稿提出的宝贵修改意见。
往期回顾
五、基于群体的统计分析方法(PSA)5.1 重要特征
虽然文章已经讨论了神经影像数据的四大重要特征,即复杂的大脑、复杂的时空结构、高维数据、受试者与组间的异质性,但下面要介绍的四个重要特征主要来自对许多大规模生物医学研究(如UKB和ENIGMA)的神经影像数据和其他相关变量的联合和群体分析。
抽样偏差
NDA中最重要的问题是如何恰当地解决在设计和数据收集阶段引入的潜在抽样偏差。一些常见的抽样偏差包括覆盖不足、观察者偏差、自愿反应偏差、幸存者偏差、回忆偏差和排除偏差(Riffenburgh,2012)。抽样偏差的一个直接后果是,研究中的样本不是目标人群的代表性样本。抽样偏差会对下游数据分析以及从统计模型中得出的结论的普遍性和公平性(例如性别、种族或年龄)产生深远影响。尽管抽样偏差问题在神经影像研究中普遍存在,但直到最近,这个问题在医学影像文献中仍然被大多数人忽视了(Roberts et al., 2021; Batty et al., 2019)。理解如何恰当地处理抽样偏差不仅需要在设计和数据收集阶段制定合适的策略,并且需要正确的建模来模拟样本选择过程(Thompson,2012)。
复杂缺失模式
在大规模神经影像研究中经常遇到缺失数据,这是由多种原因引起的,包括设计缺失、扫描错误、纵向研究中的误差、录入错误和调查中的无响应等。对于具有缺失数据的单一变量,目前有三种类型的缺失,包括完全随机缺失(MCAR)、随机缺失(MAR)和非随机缺失(MNAR)。简单地忽略缺失观测值和错误的插补,可能会导致效率损失并引入虚假相关性。在处理大规模神经影像相关研究中的缺失数据时,还会遇到许多其他挑战,例如,具有不同缺失模式的变量经常同时出现,而且高维影像数据经常整块地缺失。尽管有大量的文献研究如何处理低维缺失数据,但如何在块状缺失数据存在的情况下,恰当地整合来自不同领域具有多个异质性信息仍然存在很大的挑战(Little and Rubin, 2002;Ibrahim and Molenberghs, 2009)。
复杂数据对象
在处理神经影像数据的过程中, 我们需要提取具有生物学意义的特征,由此产生了许多复杂数据对象,它们可能是在曲空间中的表示。一些复杂数据对象的例子包括平面形状、对称正定矩阵、矩阵李群、树状结构数据、Grassmann流形、变形场、连通图、功能连通图、沿白质束的扩散特性、以及皮层和皮下结构的形状表示等等。这些复杂数据对象大多是非线性的,而且是高维的,甚至是无限维的,因此许多传统的统计技术,包括半参数和非参数回归、生长曲线模型、聚类、分类、相关和降维,往往不能直接适用于它们,(Dryden and Mardia, 1998; Marron and Dryden, 2021; Huckemann and Eltzner, 2021; Cornea et al., 2017; Srivastava and Klassen, 2016; Wang et al., 2016; Dubey and Müller, 2020)。如何高效地分析复杂数据对象以及从其他领域获得的变量,面临着比较大的统计和计算挑战。
脑相关疾病的复杂因果途径
脑相关疾病(如AD)影响着全世界六分之一的人,并对公共卫生构成了巨大威胁,导致严重的残疾、发病率和死亡率,而且大多数被批准的治疗脑相关疾病的疗法只治疗症状。现有研究表明,大多数复杂的大脑疾病具有多基因结构,并受遗传和健康因素影响(Miller27et al.,2016; Alnæs et al.,2019; V an Cauwenberghe et al.,2016; Zhao and Castellanos,2016)。此外,许多脑相关疾病可以被视为大脑变化异常轨迹的终点。由于神经影像测量更接近底层生物学,并且可以在时间上进行测量,因此在越来越多的脑疾病研究进展中(如ADNI),投入了大量精力用于理解时间上的CGIC病理生理过程。它能识别导致大脑疾病异常发育轨迹的数百种风险基因和健康因素。一旦完成了这样的识别,我们可以建立一组复杂的因果关系,描绘出与环境因素和未观察到的混杂因素混淆的CGIC通路,如图1所示。这些风险轨迹可以及早地被检测出来,以确定急需治疗的方法,从而纠正异常的发育轨迹,最终预防脑疾病的发生并降低其严重程度。
5.2 PSA方法因为影像数据在医疗和相关研究中是最重要的信息形式之一,所以开发有效的神经影像数据分析(NDA)统计学习(SL)方法以提取重要信息变得越来越重要。为实现这一目标,我们必须充分考虑第3节讨论的神经影像数据中的常见特征和第4节讨论的大规模神经影像数据中的额外特征。本文简要回顾了九类模式分析方法,然而许多研究方向仍处于初期阶段,需要更多研究者的参与和贡献。
5.2.1 抽样设计
在大规模医学研究中,主流的抽样设计包括病例对照、断面研究和队列研究(Thompson, 2012; Riffenburgh, 2012)。这些抽样设计可以应用于各种科学问题,但在涉及具体的临床和流行病学应用时,它们都有一定的局限性。病例对照研究有利于研究罕见的临床结果和潜在疾病。在这类研究中,通常采用匹配法来确保病例组和对照组具有相似的特征(如年龄和性别),从而提高研究效率。例如,Wellcome Trust病例对照研究协会利用病例对照设计和共同对照组来研究多种疾病(the -Wellcome Trust-Case-Control-Consortium,2007)。病例对照设计与元分析方法广泛结合,以汇集来自不同研究团队的概括性数据,如精神病学基因组学计划(Watson et al., 2020)和ENIGMA(Thompson et al., 2020)。然而,选择和匹配步骤可能容易产生某些偏差和混淆效应,如选择偏差和回忆偏差。由于研究样本与一般人群之间存在潜在差异,从病例对照设计中获得的结果和统计数据可能缺乏完美的泛化性。在医学研究中,神经影像数据通常是次要特征或内表型特征,这个因素对下游分析影响非常大。因此,在统计分析中推断这些影像学特征时,需要考虑“病例对照”的影响。
另一方面,群体研究招募参与者时并没有对相关结果进行筛选,参与者是根据他们的特点和意愿选择的。通常来说,研究人员会对相关结果进行长期监测,以评估其发生的情况,并可在基线(例如,断面分析)或在纵向分析中评估结果与曝光之间的关系。例如,UKB是一项基于人群的大型群体研究(Littlejohns et al., 2020; Miller et al., 2016),研究人员基于UKB的基线数据进行了许多断面分析。然而,UKB以其“健康志愿者”的选择偏差而闻名,可能并不能真正代表一般人群(Fry et al., 2017)。有研究认为,可以从因果推断的角度使用基于重加权的方法处理选择偏差(Batty et al., 2019; Bradley and Nichols, 2022)。这些方法通常假设志愿者的偏差可以用观察到的变量来解释,比如社会经济地位。此外,缺失数据也是群体研究中已知的混淆因素来源,特别是当相关结果与缺失机制无关时。不好好解决这些偏差可能会导致混淆效应、有偏见的统计结果,和误导性的发现。
此外,做元学习或联邦学习的时候,我们要整合来自不同抽样设计和不同人群的数据时,但是这会面临许多困难。忽略这些差异可能造成意想不到的后果。例如,当汇集来自病例对照和群体研究的数据时,可能不容易确定正确的统计推断框架。显然,不考虑抽样设计的分析将导致有偏差的结果。因此,在设计和整合基于群体的研究时,了解抽样机制并恰当地运用以达到预期目标是很重要的。
相较于观察性研究,基于人群的生物医学研究中的实验研究较少。一个主要的原因是,在大量的实验对象上进行实验通常是困难的且十分昂贵。然而,实验在促进我们对生物医学数据进行科学理解方面发挥着关键作用。例如,设计良好的基于任务或事件的功能磁共振成像实验可以帮助理解大脑功能变化,这些变化是由于人类行为和干预而引起的。此外,在大规模基于人群的研究中,序贯决策对于更好地设计后续阶段也很重要。总之,在解释和概括观察性研究结果时,需要考虑抽样机制。然而,神经影像数据分析(NDA)的大规模实验设计严重缺乏公开数据资源,这一问题需要在未来生物医学数据科学研究中得到更多关注。
5.2.2 统计结果图(SPM)
有一批文献专门研究各种统计方法的发展,被称为统计结果图(SPM),他们主要用于两个主要的NDA任务,包括受试者图像体积的图像重建,和来自不同受试者/组的图像的群体分析。在这两个任务中,我们都假定图像已经在同一个空间进行了配准。我们将在下面简要介绍传统的SPM及其扩展内容。
SPM是一组用于检测单个受试者或多个样本的神经影像中大脑结构和功能变化的统计方法。该方法已经在主流的神经影像软件平台中得到实现,包括统计结果图(SPM)(www.fil.ion.ucl.ac.uk/spm/)和FMRIB软件库(FSL(www.fmrib.ox.ac.uk/fsl/)。SPM由三个关键模块组成:(i)对影像数据在空间和时间上进行平滑处理,(ii)在每个像素独立地对图像数据拟合线性模型,(iii)使用随机场理论(RFT)、错误发现(FDR)和随机自助法来校正多重比较。虽然SPM广受欢迎,但在以下三个重要方向上需要进一步拓展:
第一个方向是解决高斯平滑方法的几个主要缺点,这些缺点可能会大幅增加假阳性和假阴性的数量(Zhu等,2014)。此外,对于双生子研究,Li等人(2012)表明,平滑原始图像可以显著降低检测环境效应和遗传效应的统计功效,这对于影像遗传研究至关重要。为了解决这些缺点,已经有文献提出了多尺度自适应模型,将传播分离方法扩展到用于群体分析的大量参数和半参数模型(Polzehl等,2010; Zhu等,2014; Li等,2011, 2012)。这些多尺度自适应方法极大地提高了信噪比,同时保留了空间细节.
第二个方向是从一般线性模型(GLMs)转向更高级的统计模型。这一方向的主要动机包含处理复杂的抽样设计、抽样偏差、缺失数据、复杂的数据对象和非线性关系,简单地用线性模型来处理这些问题很容易导致假阳性和假阴性结果。在分析大规模影像数据中,特别有必要对专业统计软件进行集成和扩展,包括R (www.r-project.org/)、RStudio (www.rstudio.com)、SAS (www.sas.com)和Python Statsmodels (www.statsmodels.org)等。即使这些软件包可能无法直接适用于NDA(神经影像数据),但通过参数、半参数和非参数统计模型及其相关的统计推断工具为我们打开了一个新的世界。
目前有两类主要方法来用更复杂的统计模型来针对影像数据进行建模。第一类是将一些现成的复杂模型直接应用于神经影像数据,并基于空间位置(例如体素、顶点或像素)来得到各种统计结果(例如p值、参数估计和诊断测量)图,最后再校正多重比较。本文将在下面详细讨论如何校正多重比较。第二类方法是将时空结构直接融入不同的统计模型,然后再进行参数估计和进行统计推断,最后再校正多重比较。例如,最近一些值得注意的发展包括纵向神经影像数据的多尺度自适应回归方法(Yuan et al., 2014),空间变系数模型(Zhu et al., 2012; Li et al., 2021; Zhu et al., 2014; Zhang et al., 2020),分位数模型(Zhang et al., 2021; Yang et al., 2020)和功能主成分分析(fPCA)(Chen et al.,2019)等等。
这里,我们需要对神经影像数据的不同建模方法做四点说明。首先,大多数SPM的统计模型可以被视为模型(1)的近似,由此我们可以更好地理清楚一些重要指标对大脑的影响,如年龄、性别或诊断。第二,大部分SPM的统计模型可以按照式(2)表述为图像的反卷积问题。第三,虽然分位数方法在NDA中还没有被广泛应用,但相关信息可以提高研究人员对成像测量值在空间上的条件分布的理解,这些空间域可能与模型(1)中的各种预测因子存在非线性关系。第四,应该强调的是,统计中的大多数函数形数据分析(FDA)方法主要是针对一维曲线开发的(Silverman and Ramsay, 2005; Wang et al., 2016),将这些FDA方法扩展到二维和更高维神经影像数据面临着许多计算和统计的挑战。
第三个方向是开发更好的统计方法,包括随机场理论、随机自助法和FDR,以校正NDA中的多重比较。大多数随机场理论和随机自助法主要考虑原始成像数据的时空结构来控制第一类的错误率,而大多数FDR方法则不考虑相关信息。然而,最近有几个FDR方法可以对空间信号进行多重比较(Sun et al., 2015; Zhang et al., 2011)。尽管FDR适用于一大类统计模型,但它确实依赖于未校正p值的计算,这个本身在很多情况下也不太容易。
自从fMRI被广泛应用以来,随机场理论(RFT)在神经影像数据分析(NDA)领域占据了主导地位。RFT已被广泛用于基于像素的分析和聚类大小的推断,以测试信号强度和空间范围的显著性。像素级RFT使用随机场欧拉特征的期望来近似最大统计量的p值,而聚类大小RFT使用零均值平稳随机场中聚类大小的最大分布。然而,当前的RFT结果并不能满足许多高级统计模型在NDA中的基本要求,这主要有两点。首先,大多数RFT结果仅限于线性模型及其某些扩展(Adler和Taylor,2007)。更先进的模型需要更深入的RFT结果支持。其次,大多数RFT结果需要非常强的假设条件,包括平稳性和高阶平滑性,而这些条件在fMRI中经常不成立。最近,有一个特别有趣和有影响力的研究结果,具体是由Eklund等人(2016)提出,其中有两个重要观察结果:(i)在fMRI数据中,RFT的一些关键假设是不正确的;(ii)现有的RFT方法可能导致聚类大小推断的假阳性率过高。
随机自助法主要包括置换和基于自助的方法,两者都是基于观测数据对检验统计量的零分布进行近似。尽管置换检验在NDA中得到了一些关注,但由于计算和方法上的挑战,它最近在统计学中没有得到太多的关注。具体来说,置换方法要求零假设下的完全互换性,即使对于最简单的两组比较问题,这也是有问题的。基于Bootstrap的方法,特别是wild Bootstrap,由于其灵活性、优良的理论基础和实证结果,在统计学中得到了大量的关注,即便这可能需要更多的努力来进一步开发和应用wild Bootstrap方法到不同的模型。从理论上讲,wild Bootstrap等随机自助法在数据条件下被证明是收敛的(Kosorok,2003;Chatterjee and Bose, 2005)。实际上,wild Bootstrap方法已成功应用于NDA,包括用于表面分析的异方差线性模型(Zhu et al., 2007)、异步纵向功能和标量数据的回归分析(Li et al., 2020)、用于纵向神经成像数据的函数混合模型(Yuan et al.,2014)和用于影像遗传学的统计模型(Huang et al., 2015, 2017)。
最后,作为举例,我们介绍一项有趣的研究结果(Botvinik-Nezer et al., 2020),该研究整合了70个独立团队在分析一个神经成像数据集时, 用不同SPM的调节参数而造成的统计分析结果的差异。特别是假设检验的结果。一个令人惊讶的结果是这些差异主要是由fMRI的空间平滑度造成的。另一项研究进一步地评估了不同fMRI预处理方法对分析结果的影响(Bowring et al., 2019)。这两项研究说明了,我们需要进一步地开发现有的分析方法,以减少预处理和统计方法对最后的统计推断造成大的差异。
5.2.3面向对象数据(OOD)的统计分析
下面我们将简要回顾OOD及其扩展的内容。面向对象数据(OOD)分析是一种综合的统计框架,包括用于分析复杂对象总体的参数估计方法及相关的统计理论(Marron and Dryden,2021; Huckemann and Eltzner,2021; Srivastava and Klassen, 2016; Wang et al., 2016; Dryden and Mardia,1998)。复杂数据对象可以是轻度非欧几里得空间的元素,如黎曼对称空间,也可以是强非欧几里得空间的元素,如树状结构对象的空间。OOD在NDA中的主要应用是对神经成像数据中提取的复杂对象进行统计分析。
针对OOD(Out-Of-Distribution)的三类统计方法包括:(i)特征统计方法,(ii)外部统计方法和(iii)内在统计方法。特征统计方法的关键思想是使用一些特征提取函数将OOD映射到一些在欧氏空间内的变量,然后就可以用一些传统的统计模型来分析这些欧氏空间变量。特征统计方法的一个关键优势是计算效率高,同时如果提取函数本身具有很强的生物学解释,那么这些特征也是具有生物学意义的。接下来,我们给出两个特征统计方法的例子。第一个例子是将(3×3)对称正定(SPD)矩阵的扩散张量视为随机对象。我们可以据此计算一些矩阵的不变量,比如矩阵的各向异性度(FA),然后使用SPMs来分析FA图像。在神经科学中,FA是白质中的纤维密度、轴突直径和髓鞘形成的间接测量。第二个例子是将脑功能网络视为随机对象,我们可以使用特征统计方法来理解脑网络的拓扑结构。具体来说,可以计算大脑功能网络的各种图指标,例如节点中心性、网络效率和度数,然后对这些图指标进行统计分析(Bullmore和Sporns,2009;Simpson等,2013)。此外,网络效率描述了脑网络如何有效地进行信息交换。然而,找到好的特征向量并不是一件容易的事情,此外,开发一个具有强大神经学解释力的良好特征提取函数也不是一件简单的事情。
外在统计方法的核心思想包括:(i) 将对象所在的曲空间嵌入到某个高维的欧几里得空间中;(ii) 对嵌入的欧几里得空间中的随机对象进行统计推断;最后 (iii) 将结果拉回到曲空间。外在统计方法的一个主要优势在于计算效率。现有的外在统计方法已被应用于平均值、中位数、局部回归,和降维(Lin et al., 2017)。例如,扩散张量可以嵌入到六维欧氏空间中,而 d 维球体可以嵌入到 (d+1) 维欧氏空间中。在方向统计学中,所考虑的流形包括球面和射影空间,相关的统计工具主要是外在统计方法。然而,它存在两大缺点。首先,在大多数情况下,设计一个好的等变嵌入并不容易,这需要深入思考。具体来说,在步骤 (i) 中,需要等变嵌入来保留原曲空间的许多几何结构。其次,在许多情况下,如何将结果正确地拉回到原曲空间也不是很清楚。
内在统计方法的核心思想包括:(i) 为对象所在的曲面空间 M 引入一个“合适”的度量ρ,记为 (M, ρ);以及 (ii) 对 (M, ρ) 中的随机对象进行统计推断。一些具有附加结构的度量空间示例包括黎曼流形、赋范向量空间、长度空间和图。例如,黎曼流形 (M, g) 是一个具有黎曼度量张量 g 的实光滑流形 M,它可以定义每一点的切平面,并在连通黎曼流形上确定两点之间的测地线距离。我们还可以通过为商集 (M/∼) 赋予一个伪度量来构造 (M, ρ) 的商度量空间,其中 ∼ 是 M 上的等价关系。
内在统计方法中的一个关键问题是如何为 (M, ρ) 合适地引入一个好的度量ρ,或为 (M, g) 引入一个度量张量g。ρ 和 g 的选择对后续计算和统计推断具有重要影响。例如,在 Dryden et al. (2009) 中,作者讨论了用于估计平均扩散张量的 SPD 空间中的 8 种不同度量。最近,Srivastava 和 Klassen (2016) 引入了一种通用弹性度量,用于分析曲线形状;这是 Fisher-Rao 度量的一个重要扩展,允许我们分离曲线的相位和振幅分量。通常情况下,在考虑计算效率的同时,ρ(或 g)的选择应关注两个因素:捕获感兴趣的信号以及在曲空间上的离群数据分布。
在过去十年里,有限维黎曼流形中流形数据的内在统计模型取得了显著进展。Frechet 均值、中位数和方差为表征 M 中随机对象的中心和离散程度提供了一种简单方法(Arnaudon et al., 2013; Marron and Dryden, 2021; Huckemann and Eltzner, 2021)。主测地线分析(Fletcher et al., 2004)的进一步发展降低了随机对象的维数,同时提高了可解释性并最小化了信息损失。Cornea et al.(2017)针对黎曼对称空间中的随机对象,开发了基于黎曼对数和指数映射的内在回归模型。其他值得关注的贡献包括黎曼函数数据分析、内在局部多项式回归、Wasserstein 回归(一种通用的距离度量)和纵向分析等(Yuan et al., 2012; Shao et al., 2022; Chen et al., 2021; Pan et al., 2019)。尽管有这些新进展,计算内在估计仍然颇具挑战,需要进一步关注。
统计形状建模和分析已经成为从神经影像数据中提取和理解脑结构和功能的重要工具。形状分析的四个关键组成部分包括:(i) 形状表示,(ii) 形状之间的距离,(iii) 形状配准,以及 (iv) 形状的统计分析。形状的统计方法依赖于形状表示,如界标、隐式表示、参数表示、中间模型和基于形变的描述符等(Marron and Dryden, 2021; Miller and Qiu, 2009; Grenander and Miller, 2007; Srivastava and Klassen, 2016; Dryden and Mardia, 1998; Chung et al., 2007; Fischl, 2012)。大多数早期的表示集中在对象边界上的点或对象边界的参数描述符上,而基于形变的表示则利用整个图像中的形状信息。大多数形状空间是基于等价关系的商度量空间,包括平移、旋转和缩放。一些著名的形状分析方法包括大规模形变微分同胚度量映射(LDDMM)技术(Grenander and Miller, 2007)、弹性统计形状分析(Srivastava and Klassen, 2016; Zhang et al., 2023)以及 Wasserstein 形状分析(Shi and Wang, 2019).
5.2.4插补方法
为神经成像数据开发良好的插补方法需要深入了解NDA中数据缺失的原因及其机制。表1总结了NDA中缺失数据的一些常见原因和机制。NDA中缺失数据的原因包括不同的采集协议、不同的研究设计导致的图像模式缺失,数据传输和存储丢失,由于图像损坏和敏感性伪影导致的错误扫描,以及由于对材料过敏、个人信仰和财务成本等因素导致的参与者流失。缺失机制包括MCAR、MAR和MNAR三种(Little and Rubin, 2002; Ibrahim and Molenberghs, 2009)。区分MAR和MNAR的关键在于缺失是否可以根据观察到的协变量或缺失变量本身进行预测。例如,如果流失率根据观察到的协变量(如年龄、性别或种族)而不同,那么缺失的机制是可预测的,属于MAR。相反,如果流失率取决于缺失数据本身,那么它属于MNAR,忽略这种缺失可能会引入实质性的偏差。MCAR作为MAR的一个特例,它假定缺失数据的分布与非缺失数据的分布难以区分。这种假设很强,在实践中通常难以满足。一般来说,当系统性缺失存在时,下游数据分析如果不纠正缺失数据,可能会导致错误的结论。
表1 认知/行为相关研究中不同缺失机制的情景总结
处理缺失数据至少有两种主要策略,包括删除和插补(Nakagawa and Freckleton, 2011; Little and Rubin, 2002; Ibrahim and Molenberghs, 2009)。常见的删除方法包括按列或成对删除特征。尽管删除法简单且易于使用,但它可能导致严重的估计偏差、巨大的效率损失和统计功效的显著降低。有两种类型的插补方法,包括单一插补和多重插补。单一插补方法对每个缺失的观测值产生一个插补值,从而得到一个完整的数据,而在下游数据分析中,将插补值作为真实值。因此,基于单次插补的完整数据集的下游分析未考虑插补的不确定性。单一插补的两种主要策略包括基于统计值(如平均值、中值或最大值)插补和基于统计模型生成的预测值插补。多重插补方法为每个缺失的观测值生成多个插补值,从而生成多个完整的数据集,这样可以在下游数据分析中对所有数据集进行分析。使用多重插补可以明确说明插补的不确定性。
尽管删除和插补方法都是处理 NDA 缺失数据的比较有效的方法,但处理由于 (CT1)-(CT4) 导致的神经图像缺失会带来一些额外的统计挑战。具体而言,如第 4 节和图 4 中所讨论的,图像数据很大程度上是整块缺失的,而在各种生物医学研究中,不同领域(如遗传学/基因组学)存在大量特征。在这种情况下,需要构建图像插补模型,通过根据所有其他观察到的特征(可能包括其他成像模式、遗传/基因组学和人口统计学变量)来插补缺失的高维图像。一个有前景的研究课题是开发深度生成模型,这些模型在图像生成和图像到图像转换方面取得了令人瞩目的成果,可用于图像插补。特别地,图像到图像的转换旨在学习输入图像和输出图像之间的映射,同时保留内容表示(Alotaibi, 2020)。根据训练数据中输入图像和输出图像是否在同一主体上,该任务可以进一步分为配对和非配对插补。例如,条件生成对抗网络(CGAN)方法,如 Pix2pix(Isola et al., 2017)方法,使用配对图像数据执行像素到像素的图像合成,而 CycleGAN(Zhu et al., 2017)则是基于非配对数据开发的模型,用于模拟图像转换。
尽管已经开发了许多用于特定神经成像对的图像到图像转换模型,但这些模型需要大量的验证工作,需要使用合成和真实数据集进行下游任务,例如预测。此外,引入附加信息(如基因、诊断状态和性别)以填补缺失的图像数据,并在图 1 中施加它们的动态因果关系是有趣的。然而,几乎没有人从这个方向上开发基于 CGAN 的神经成像数据插补模型。此外,由于图像数据极有可能属于 MNAR 的缺失机制,因此在 MNAR 下建立 CGAN 插补模型变得非常重要。
图1 左图:几个代表性大规模生物医学研究中不同领域的主要数据类型;右图:描述与环境因素和未观察到的混杂因素混淆的因果基因成像临床(CGIC)途径的动态因果模型。
参考文献
[1] Adler, R. J. and J. E. Taylor (2007). Random fields and geometry, Volume 80. Springer.
[2] Alnæs, D., T. Kaufmann, D. van der Meer, A. Cordova-Palomera, J. Rokicki, T. Moberget, F. Bettella, I. Agartz, D. M. Barch, A. Bertolino, et al. (2019). Brain heterogeneity in schizophrenia and its association with polygenic risk. JAMA Psychiatry 76(7), 739–748.
[3] Alotaibi, A. (2020). Deep generative adversarial networks for image-to-image translation: A review. Symmetry 12(10), 1705.
[4] Arnaudon, M., F. Barbaresco, and L. Yang (2013). Medians and means in riemannian geometry: existence, uniqueness and computation. In Matrix Information Geometry, pp. 169–197. Springer.
[5] Batty, G. D., C. R. Gale, M. Kivimaki, I. J. Deary, and S. Bell (2019). Generalisability of results from uk biobank: Comparison with a pooling of 18 cohort studies. MedRxiv, 19004705.
[6] Botvinik-Nezer, R., F. Holzmeister, C. F. Camerer, A. Dreber, J. Huber, M. Johannesson, M. Kirchler, R. Iwanir, J. A. Mumford, R. A. Adcock, et al. (2020). Variability in the analysis of a single neuroimaging dataset by many teams. Nature 582(7810), 84–88.
[7] Bowring, A., C. Maumet, and T. E. Nichols (2019). Exploring the impact of analysis software on task fmri results. Human brain mapping 40(11), 3362–3384.
[8] Bradley, V. C. and T. E. Nichols (2022). Addressing selection bias in the uk biobank neurological imaging cohort. medRxiv.
[9] Bullmore, E. and O. Sporns (2009). Complex brain networks: graph theoretical analysis of structural and functional systems. Nature reviews neuroscience 10(3), 186–198.
[10] Chatterjee, S. and A. Bose (2005). Generalized bootstrap for estimating equations. The Annals of Statistics 33(1), 414–436.
[11] Chen, Y., J. Goldsmith, and R. T. Ogden (2019). Functional data analysis of dynamic pet data. Journal of the American Statistical Association 114(526), 595–609.
[12] Chen, Y., Z. Lin, and H.-G. Muller (2021). Wasserstein regression. Journal of the American Statistical Association, 1–14.
[13] Chung, M. K., K. M. Dalton, L. Shen, A. C. Evans, and R. J. Davidson (2007). Weighted fourier series representation and its application to quantifying the amount of gray matter. IEEE transactions on medical imaging 26(4), 566–581.
[14] Cornea, E., H. Zhu, P. Kim, J. G. Ibrahim, and A. D. N. Initiative (2017). Regression models on riemannian symmetric spaces. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 79(2), 463–482.
[15] Dryden, I. and K. Mardia (1998). Statistical shape analysis. New York: John Wiley and Sons.
[16] Dryden, I. L., A. Koloydenko, and D. Zhou (2009). Non-euclidean statistics for covariance matrices, with applications to diffusion tensor imaging. The Annals of Applied Statistics 3(3), 1102–1123.
[17] Dubey, P. and H.-G. Muller (2020). Functional models for time-varying random objects. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 82(2), 275–327.
[18] Eklund, A., T. E. Nichols, and H. Knutsson (2016). Cluster failure: Why fmri inferences for spatial extent have inflated false-positive rates. Proceedings of the national academy of sciences 113(28), 7900–7905.
[19] Fischl, B. (2012). Freesurfer. NeuroImage 62(2), 774–781.
[20] Fletcher, P. T., C. Lu, S. M. Pizer, and S. Joshi (2004). Principal geodesic analysis for the study of nonlinear statistics of shape. IEEE transactions on medical imaging 23(8), 995–1005.
[21] Fry, A., T. J. Littlejohns, C. Sudlow, N. Doherty, L. Adamska, T. Sprosen, R. Collins, and N. E. Allen (2017). Comparison of sociodemographic and health-related characteristics of uk biobank participants with those of the general population. American journal of epidemiology 186(9), 1026–1034.
[22] Grenander, U. and M. I. Miller (2007). Pattern Theory From Representation to Inference. Oxford University Press.
[23] Huang, C., P. Thompson, Y. Wang, Y. Yu, J. Zhang, D. Kong, R. R. Colen, R. C. Knickmeyer, H. Zhu, A. D. N. Initiative, et al. (2017). Fgwas: Functional genome wide association analysis. NeuroImage 159, 107–121.
[24] Huang, M., T. Nichols, C. Huang, Y. Yang, Z. Lu, R. C. Knickmeyer, Q. Feng, and H. T. Zhu (2015). FVGWAS: fast voxelwise genome wide association analysis of large-scale imaging genetic data. NeuroImage 118, 613–627.
[25] Huckemann, S. F. and B. Eltzner (2021). Data analysis on nonstandard spaces. Wiley Interdisciplinary Reviews: Computational Statistics 13(3), e1526.
[26] Ibrahim, J. G. and G. Molenberghs (2009). Missing data methods in longitudinal studies: a review. Test 18(1), 1–43.
[27] Isola, P., J.-Y. Zhu, T. Zhou, and A. A. Efros (2017). Image-to-image translation with conditional adversarial networks. In Proceedings of the IEEE conference on computer vision and pattern recognition, pp. 1125–1134.
[28] Kosorok, M. R. (2003). Bootstraps of sums of independent but not identically distributed stochastic processes. Journal of Multivariate Analysis 84(2), 299–318.
[29] Li, Y., J. H. Gilmore, J. Wang, M. Styner, W. Lin, and H. Zhu (2012). Twinmarm: two-stage multiscale adaptive regression methods for twin neuroimaging data. IEEE Transactions on Medical Imaging 31(5), 1100–1112.
[30] Li, Y., H. Zhu, D. Shen, W. Lin, J. H. Gilmore, and J. G. Ibrahim (2011). Multiscale adaptive regression models for neuroimaging data. Journal of the Royal Statistical Society. Series B 73(4), 559–578.
[31] Li, X., L. Wang, H. J. Wang, and A. D. N. Initiative (2021). Sparse learning and structure identification for ultrahigh-dimensional image-on-scalar regression. Journal of the American Statistical Association 116(536), 1994–2008.
[32] Li, T., T. Li, Z. Zhu, and H. Zhu (2020). Regression analysis of asynchronous longitudinal functional and scalar data. Journal of the American Statistical Association, 1–15.
[33] Lin, L., B. St. Thomas, H. Zhu, and D. B. Dunson (2017). Extrinsic local regression on manifold-valued data. Journal of the American Statistical Association 112(519), 1261–1273.
[34] Little, R. J. A. and D. B. Rubin (2002). Statistical Analysis With Missing Data. New York: Wiley.
[35] Littlejohns, T. J., J. Holliday, L. M. Gibson, S. Garratt, N. Oesingmann, F. Alfaro-Almagro, J. D. Bell, C. Boultwood, R. Collins, M. C. Conroy, et al. (2020). The uk biobank imaging enhancement of 100,000 participants: rationale, data collection, management and future directions. Nature Communications 11(1), 1–12.
[36] Marron, J. S. and I. L. Dryden (2021). Object Oriented Data Analysis. Chapman and Hall/CRC.
[37] Miller, K. L., F. Alfaro-Almagro, N. K. Bangerter, D. L. Thomas, E. Yacoub, J. Xu, A. J. Bartsch, S. Jbabdi, S. N. Sotiropoulos, J. L. Andersson, et al. (2016). Multimodal population brain imaging in the uk biobank prospective epidemiological study. Nature Neuroscience 19(11), 1523–1536.
[38] Miller, M. I. and A. Qiu (2009). The emerging discipline of computational functional anatomy. NeuroImage 45, S16–S39.
[39] Nakagawa, S. and R. P. Freckleton (2011). Model averaging, missing data and multiple imputation: a case study for behavioural ecology. Behavioral Ecology and Sociobiology 65(1), 103–116.
[40] Nichols, T. and S. Hayasaka (2003). Controlling the familywise error rate in functional neuroimaging: a comparative review. Statistical methods in medical research 12(5), 419–446.
[41] Pan, W., X. Wang, H. Zhang, H. Zhu, and J. Zhu (2019). Ball covariance: A generic measure of dependence in banach space. Journal of the American Statistical Association.
[42] Polzehl, J., H. U. Voss, and K. Tabelow (2010). Structural adaptive segmentation for statistical parametric mapping. NeuroImage 52(2), 515–523.
[43] Riffenburgh, R. H. (2012). Statistics in medicine. Academic press.
[44] Roberts, M., D. Driggs, M. Thorpe, J. Gilbey, M. Yeung, S. Ursprung, A. I. Aviles-Rivero, C. Etmann, C. McCague, L. Beer, et al. (2021). Common pitfalls and recommendations for using machine learning to detect and prognosticate for covid-19 using chest radiographs and ct scans.Nature Machine Intelligence 3(3), 199–217.
[45] Shao, L., Z. Lin, and F. Yao (2022). Intrinsic riemannian functional data analysis for sparse longitudinal observations. The Annals of Statistics 50(3), 1696–1721.
[46] Shi, J. and Y. Wang (2019). Hyperbolic wasserstein distance for shape indexing. IEEE transactions on pattern analysis and machine intelligence 42(6), 1362–1376.
[47] Silverman, B. and J. Ramsay (2005). Functional Data Analysis. Springer.
[48] Simpson, S. L., F. D. Bowman, and P. J. Laurienti (2013). Analyzing complex functional brain networks: fusing statistics and network science to understand the brain. Statistics Surveys 7, 1.
[49] Srivastava, A. and E. P. Klassen (2016). Functional and shape data analysis, Volume 1. Springer.
[50] Sun, W., B. J. Reich, T. Tony Cai, M. Guindani, and A. Schwartzman (2015). False discovery control in large-scale spatial multiple testing. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 77(1), 59–83.
[51] The-Wellcome-Trust-Case-Control-Consortium (2007). Genome-wide association study of 14,000 cases of seven common diseases and 3,000 shared controls. Nature 447(7145), 661–678.
[52] Thompson, P. M., N. Jahanshad, C. R. Ching, L. E. Salminen, S. I. Thomopoulos, J. Bright, B. T. Baune, S. Bertol´ın, J. Bralten, W. B. Bruin, et al. (2020). Enigma and global neuroscience: A decade of large-scale studies of the brain in health and disease across more than 40 countries. Translational psychiatry 10(1), 1–28.
[53] Thompson, S. K. (2012). Sampling, Volume 755. John Wiley & Sons.
[54] Van Cauwenberghe, C., C. Van Broeckhoven, and K. Sleegers (2016). The genetic landscape of alzheimer disease: clinical implications and perspectives. Genetics in Medicine 18(5), 421–430.
[55] Wang, J.-L., J.-M. Chiou, and H.-G. Muller (2016). Functional data analysis. Annual Review of Statistics and its application 3, 257–295.
[56] Watson, H. J., Z. Yilmaz, and P. F. Sullivan (2020). The psychiatric genomics consortium: history, development, and the future. In Personalized psychiatry, pp. 91–101. Elsevier.
[57] Worsley, K. J., J. E. Taylor, F. Tomaiuolo, and J. Lerch (2004). Unified univariate and multivariate random field theory. NeuroImage 23, S189–S195.
[58] Yang, H., V. Baladandayuthapani, A. U. Rao, and J. S. Morris (2020). Quantile function on scalar regression analysis for distributional data. Journal of the American Statistical Association 115(529), 90–106.
[59] Yuan, Y., J. H. Gilmore, X. Geng, S. Martin, K. Chen, J.-l. Wang, and H. Zhu (2014). Fmem: Functional mixed effects modeling for the analysis of longitudinal white matter tract data. NeuroImage 84, 753–764.
[60] Yuan, Y., H. Zhu, W. Lin, and J. S. Marron (2012). Local polynomial regression for symmetric positive definite matrices. Journal of the Royal Statistical Society: Series B (Statistical Methodology) 74(4), 697–719.
[61] Zhang, C., J. Fan, and T. Yu (2011). Multiple testing via fdrl for large scale imaging data. Annals of statistics 39(1), 613.
[62] Zhang, D., L. Li, C. Sripada, and J. Kang (2020). Image-on-scalar regression via deep neural networks. arXiv preprint arXiv:2006.09911.
[63] Zhang, Z., X. Wang, L. Kong, and H. Zhu (2021). High-dimensional spatial quantile function-on-scalar regression. Journal of the American Statistical Association, 1–16.
[64] Zhang, Z., Y. Wu, D. Xiong, J. G. Ibrahim, A. Srivastava, and H. Zhu (2023). Lesa: Longitudinal elastic shape analysis of brain subcortical structures (with discussions). Journal of the American Statistical Association 118, in press.
[65] Zhao, Y. and F. X. Castellanos (2016). Annual research review: discovery science strategies in studies of the pathophysiology of child and adolescent psychiatric disorders-promises and limitations. Journal of Child Psychology and Psychiatry 57(3), 421–439.
[66] Zhu, H., J. Fan, and L. Kong (2014). Spatially varying coefficient model for neuroimaging data with jump discontinuities. Journal of the American Statistical Association 109(507), 1084–1098.
[67] Zhu, H., R. Li, and L. Kong (2012). Multivariate varying coefficient model for functional responses. Annals of Statistics 40(5), 2634–2666.
[68] Zhu, H. T., J. G. Ibrahim, N. Tang, D. Rowe, X. Hao, R. Bansal, and B. S. Peterson (2007). A statistical analysis of brain morphology using wild bootstrapping. IEEE Trans Med Imaging 26, 954–966.
[69] Zhu, J.-Y., T. Park, P. Isola, and A. A. Efros (2017). Unpaired image-to-image translation using cycle-consistent adversarial networks. In Proceedings of the IEEE international conference on computer vision, pp. 2223–2232.